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Systematic Gene Search in the Incyte LifeSeq Database 
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Systematische Gen-Suche in der Incyte LifeSeq Datenbank 
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Principle of EST Assembly 
-50,000 ESTs per tissue 



Assembly at 0% mismatch 
with GAP 4 (Staden) 



Contigs 



Individual Sequences 
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Iterative assembly with 
increasing mismatch 
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-25,000 other individual 
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Figure 2a 
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Prinzip der EST-Assemblierung 

-50.000 ESTs pro Gewebe 
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Contigs Einzelsequenzen 



In Anzahl und Lange 
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-30.000 Konsensus- 
sequenzen pro Gewebe 



Fig. 2a 
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-50,000 ESTs of a tissue (e.g.: uterus tumor) 



GAP 4 Assembly 1st Round: 
minimum initial match: 20 
maximum number of inserted blanks per sequence: 8 
maximum percent mismatch: 0 



GAP 4 Database 1 unassembled 
Contigs 1 ESTs 
Individual sequences 1 



GAP 4 Assembly 2nd Round: 
minimum initial match: 2 0 
maximum number of inserted blanks per sequence: 
maximum percent mismatch: 1 



GAP 4 Database 2 unassembled 
Contigs 2 ESTs 
Individual sequences 2 



GAP 4 Assembly 3rd Round: 
minimum initial match: 2 0 
maximum number of inserted blanks per sequence: 
maximum percent mismatch: 2 



GAP 4 Database 3 : 
Contigs 3 

Individual sequences 3 

Figure . 2bl 
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^ ^ 

-50.000 ESTs 
eines Gewebes 
(z.B.: Uterus Tumor) 



GAP4 Assemblierung 1 . Runde: 

minimale anfangliche 
Ubereinstimmung: 20 
maximale Anzahl von eingefugten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtubereinstimmung: 0 



GAP4-Datenbank 1 : 
Contigs 1 

Einzelsequenzen 1 




nicht 
assemblierte 
ESTs 




GAP4 Assemblierung 2. Runde: 
minimale anfangliche 
Ubereinstimmung: 20 
maximale Anzahl von eingefugten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtubereinstimmung: 1 




GAP4-Datenbank 2: 
Contigs 2 

Einzelsequenzen 2 




nicht 
assemblierte 
ESTs 




GAP4 Assemblierung 3. Runde: 
minimale anfangliche 
Ubereinstimmung: 20 
maximale Anzahl von eingefugten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtubereinstimmung: 2 




GAP4-Datenbank 3 
Contigs 3 

Einzelsequenzen 3 




nicht 
assemblierte 
ESTs 



Fig. 2b1 
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GAP 4 Database 3: unassembled 
Contigs 3 Individual Sequences 3 ESTs 



Consensus 3 GAP 4 Assembly 4th Round: 

minimum initial match: 2 0 
maximum number of inserted blanks 
per sequence : 8 
maximum percent mismatch: 2 



GAP 4 Database 4: unassembled 
Contigs 4 Individual Sequences 4 ESTs 



Consensus 4 GAP 4 Assembly 5th Round: 

minimum initial match: 20 
maximum number of inserted blanks 
per sequence: 8 
maximum percent mismatch: 4 



GAP 4 Database 5: unassembled 
Contigs 5 Individual Sequences 5 ESTs 5 



Consensus 5 Individual Sequences 5 

Figure 2b2 
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GAP4-Datenbank 3: 
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GAP4 Assemblierung 4. Runde: 
minimale anfangliche 
Qbereinstimmung: 20 
maximale Anzahl von eingefugten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
NichtCibereinstimmung: 2 




GAP4-Datenbank 4: 
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ESTs 
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GAP4 Assemblierung 5. Runde: 
minimale anfangliche 
Qbereinstimmung: 20 
maximale Anzahl von eingefiigten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtubereinstimmung: 4 





nicht . 
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Consensus 3 Individual Sequences 5 



Consensus 4 unassembled 

ESTs 5 



Consensus 5 



GAP 4 Assembly 6th Round: 
minimum initial match: 20 
maximum number of inserted blanks per sequence: 8 
maximum percent mismatch: 4 



Assembled database 
of a specific tissue 
(e.g.: uterus tumor) 



Figure 2b3 
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Konsensus 3 



Einzelsequenzen 5 



Konsensus 4 



Konsensus 5 



nicht 
assemblierte 
ESTs 5 



GAP4 Assemblierung 6. Runde: 
minimale anfangliche 
Obereinstimmung: 20 
maximale Anzahl von eingefugten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
Nichtubereinstimmung: 4 




assemblierte Datenbank 
eines spezifischen Gewebes 
(z.B.: Uterus Tumor) 



Fig. 2b3 



0 09/6/3395 



6/10 

Assembled database 
of a specific tissue 
(e.g.: uterus tumor) 



Consensus 6 



Read-in as individual sequences 



Database 

of a specific tissue 
(e.g.: uterus tumor) 



Database of a second 
specific tissue 
(e.g.: normal uterus) 



GAP 4 Ass emb ly 

minimum initial match: 2 0 

maximum number of inserted blanks 

per sequence: 8 

maximum percent mismatch: 4 



Tumor tissue- Non-tissue- Normal tissue- 

specific ESTs specific ESTs specific ESTs 

Fig. 2b4 
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assemblierte Datenbank 
eines spezifischen Gewebes 
(z.B.: Uterus Tumor) 



Konsensus 6 



Einlesen als Einzelsequenzen 



Datenbank eines 
spezifischen Gewebes 
(z.B.: Uterus Tumor) 



Datenbank eines zweiten 
spezifischen Gewebes 
(z.B.: Uterus Normal) 




GAP4 Assemblierving 
minimale anfangliche 
Clbereinstimmung: 20 
maximale Anzahl von eingefiigten 
Leerstellen pro Sequenz: 8 
maximale Prozente von 
NichtObereinstimmung: 4 





Tumor-Gewebs- 
spezifische 
ESTs 



nicht Gewebs- 
spezifische 
ESTs 



Fig. 2b4 
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In silico subtraction of gene expression in various tissues 



•30,000 consensus sequences 
normal tissue 



-30,000 consensus sequences 
tumor tissue 



Assembly at 4% mismatch 



Normal tissue 
Specific genes 



Cancer tissue 
Specific genes 



Genes expressed in both tissues 



Figure 3 



CORRECTED PAGE (RULE 91) 
ISA/EP 



WO 99/54461 



• 09/673395 

PCT/DE99/01174 



7/10 



c 

0) 
.Q 
0 

O 

O 
c 

0) 

c 
o 
■o 

CD 

o 

CO 

Q 
> 



c 
o 

"ca 

(/) 
CD 

Q. 
X 

CD 
C 
CD 

o 



(0 



C/5 

o 
o 



CO 



c 

CD 
N 




en 


CD 




C 


CD 


CD 




CD 


CD 


CD 




c 


CD 


ide 


im 


o 


Q. 


JQ 


X 


C 


CD 



o 
o 

o 

CO 

i 



Fig. 3 

BERICHTIGTES BLATT (RE GEL 91) 
T«J i/FP 



09/673395 



8/10 



Genes of interest 



Determination of tissue-specific expression 
via electronic Northern (INCYTE LifeSeq and 
public EST databases) 



Candidate genes for tumor suppressors or 
tumor activators 



Figure 4a 
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Gene von Interesse 



Bestimmung der 
gewebsspezifischen 
Expression uber 
elektronischen Northern 
(INCYTE LifeSeq und 
offentliche EST 
Datenbanken) 



Kandidatengene fur 
Tumorsuppressoren oder 
Tumoraktivatoren 



Fig. 4a 
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Partial cDNA sequence 
e.g., EST or contig 
S 



. . . G C CT C AAGTT AT C , 



Electronic Northern Blot 



Fisher's Exact Test IF H Q 



Automatic Lengthening 



EXIT 



Consensus sequence C 

. ATGTCCTAGCCTCAAGTTATCAGATGCAA . 
Figure 4b 
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Partielle 
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EST o. Contig 
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Elektronischei 
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Fishers Exakter Test 
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Automatische Verlangerung 



IF H r 



EXIT 




ATGTCCTAGCCTCAAGTTATCAGATGCAA. 
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Fig. 4b 
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Isolation of genomic BAC and PAC clones 



Chromosomal clone localization via FISH 



Hybridization signal 



Sequencing of clones that are located in regions that have 
chromosomal deletions in prostate and breast cancer leads to 
identification of candidate genes 



Exon Intron 



Confirmation of candidate genes by screening of 
mutations and/or deletions in cancer tissues 



Figure 5 
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Isolieren von genomischen BAC und PAC Klonen 



Chromosomale Klon-Lokalisation uber FISH 



/ 

Hybridisierungssignal 




Sequenzierung von Klonen, die in Regionen 
lokalisiert sind, die chromosomale Deletionen 

in Prostata- und Brustkrebs aufweisen, 
fuhrt zur Identifizierung von Kandidatengenen 



Exon 



Intron 



Bestatigung der Kandidatengene durch 
Screening von Mutationen und/oder 
Deletionen in Krebsgeweben 



Fig. 5 
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